Due to their ability to offer more comprehensive information than data from a single view, multi-view (multi-source, multi-modal, multi-perspective, etc.) data are being used more frequently in remote sensing tasks. However, as the number of views grows, the issue of data quality becomes more apparent, limiting the potential benefits of multi-view data. Although recent deep neural network (DNN) based models can learn the weight of data adaptively, a lack of research on explicitly quantifying the data quality of each view when fusing them renders these models inexplicable, performing unsatisfactorily and inflexible in downstream remote sensing tasks. To fill this gap, in this paper, evidential deep learning is introduced to the task of aerial-ground dual-view remote sensing scene classification to model the credibility of each view. Specifically, the theory of evidence is used to calculate an uncertainty value which describes the decision-making risk of each view. Based on this uncertainty, a novel decision-level fusion strategy is proposed to ensure that the view with lower risk obtains more weight, making the classification more credible. On two well-known, publicly available datasets of aerial-ground dual-view remote sensing images, the proposed approach achieves state-of-the-art results, demonstrating its effectiveness. The code and datasets of this article are available at the following address: https://github.com/gaopiaoliang/Evidential.
translated by 谷歌翻译
Implicit regularization is an important way to interpret neural networks. Recent theory starts to explain implicit regularization with the model of deep matrix factorization (DMF) and analyze the trajectory of discrete gradient dynamics in the optimization process. These discrete gradient dynamics are relatively small but not infinitesimal, thus fitting well with the practical implementation of neural networks. Currently, discrete gradient dynamics analysis has been successfully applied to shallow networks but encounters the difficulty of complex computation for deep networks. In this work, we introduce another discrete gradient dynamics approach to explain implicit regularization, i.e. landscape analysis. It mainly focuses on gradient regions, such as saddle points and local minima. We theoretically establish the connection between saddle point escaping (SPE) stages and the matrix rank in DMF. We prove that, for a rank-R matrix reconstruction, DMF will converge to a second-order critical point after R stages of SPE. This conclusion is further experimentally verified on a low-rank matrix reconstruction problem. This work provides a new theory to analyze implicit regularization in deep learning.
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
在规范空间中对人体进行建模是捕捉和动画的常见实践。但是,当涉及神经辐射场(NERF)时,在规范空间中学习静态NERF是不够的,因为即使人体移动时,即使场景照明是恒定的,身体的照明也会变化。以前的方法通过学习人均嵌入来减轻照明的不一致,但是此操作并不能推广到看不见的姿势。鉴于照明条件在世界空间中是静态的,而人体在规范空间中是一致的,我们提出了一个双空间的nerf,该nerf在场景照明和人体中对两个单独空间的两个MLP进行建模。为了弥合这两个空间,以前的方法主要依赖于线性混合剥皮(LBS)算法。但是,动态神经场的LB的混合重量很难棘手,因此通常用另一个MLP记住,这不会推广到新型姿势。尽管可以借用参数网格(例如SMPL)的混合权重,但插值操作会引入更多的伪像。在本文中,我们建议使用Barycentric映射,该映射可以直接概括为看不见的姿势并出奇地取得了比具有神经混合重量的LB的优势。人类36M和ZJU-MOCAP数据集的定量和定性结果显示了我们方法的有效性。
translated by 谷歌翻译
基于单个草图图像重建3D形状是由于稀疏,不规则的草图和常规,密集的3D形状之间的较大域间隙而具有挑战性的。现有的作品尝试采用从草图提取的全局功能来直接预测3D坐标,但通常会遭受失去对输入草图不忠心的细节。通过分析3D到2D投影过程,我们注意到表征2D点云分布的密度图(即,投影平面每个位置的点的概率)可以用作代理,以促进该代理重建过程。为此,我们首先通过图像翻译网络将草图翻译成一个更有信息的2D表示,可用于生成密度映射。接下来,通过两个阶段的概率采样过程重建一个3D点云:首先通过对密度映射进行采样,首先恢复2D点(即X和Y坐标);然后通过在每个2D点确定的射线处采样深度值来预测深度​​(即Z坐标)。进行了广泛的实验,定量和定性结果都表明,我们提出的方法显着优于其他基线方法。
translated by 谷歌翻译
最近,基于卷积神经网络(CNN)的合成孔径雷达(SAR)图像的变更检测方法已增加了研究的注意力。但是,现有的基于CNN的方法忽略了多层卷积之间的相互作用,并且涉及的预分类限制了网络优化。为此,我们提出了一个基于注意力的噪声网络,称为Lantnet。特别是,我们设计了一个层注意模块,该模块可以适应不同卷积层的特征。此外,我们设计了一个耐噪声损失函数,可有效抑制嘈杂标签的影响。因此,该模型对预制结果中的嘈杂标签不敏感。三个SAR数据集的实验结果表明,与几种最新方法相比,所提出的Lantnet性能更好。源代码可在https://github.com/summitgao/lantnet上找到
translated by 谷歌翻译
我们提出了联合隐式功能(UNIF),这是一种基于原始扫描和骨骼作为输入的人类重建和动画的零件方法。先前的基于部分的人重建方法依赖于SMPL的地面零件标签,因此仅限于最小衣服。相比之下,我们的方法学会了将部分与身体运动分开,而不是部分监督,因此可以扩展到穿衣服的人类和其他铰接的物体。我们的分区从动作进行分区是通过以骨骼为中心的初始化,骨限度损失和正常损失来实现的,即使训练姿势受到限制,也可以确保稳定的零件分裂。我们还为SDF提供了最小的周边损失,以抑制额外的表面和部分重叠。我们方法的另一个核心是一种相邻的部分接缝算法,该算法会产生非刚性变形,以维持显着缓解基于部分伪像的部分之间的连接。在该算法下,我们进一步提出了“竞争部分”,该方法通过点对骨骼而不是绝对位置的相对位置定义了重量,从而避免了神经隐式函数的概括性问题(线性混合皮肤)。我们通过在CAPE和ClothSeq数据集上穿衣服的人体重建和动画来证明我们方法的有效性。
translated by 谷歌翻译
我们解决了新颖的类发现问题,旨在根据可见类别的数据在未标记的数据中发现新的类。主要的挑战是将所见类中包含的知识转移到看不见的知识中。先前的方法主要通过共享表示空间或关节标签空间传输知识。但是,他们倾向于忽略可见类别和看不见的类别之间的阶级关系,因此学习的表示对聚类的看不见类别的有效性较差。在本文中,我们提出了一种原理和一般方法,以在可见的和看不见的阶级之间传递语义知识。我们的见解是利用共同的信息来衡量受限的标签空间中看到的类和看不见的类之间的关系,并最大化相互信息可以促进传递语义知识的传递。为了验证我们方法的有效性和概括,我们对新型类发现和一般新型类发现设置进行了广泛的实验。我们的结果表明,所提出的方法在几个基准上优于先前的SOTA。
translated by 谷歌翻译
在跨越监督分类和顺序控制的应用程序中,据报道,深度学习发现了“快捷方式”解决方案,这些解决方案在数据分布的较小变化下灾难性地失败。在本文中,我们从经验上表明,可以通过提供从关键输入特征计算出的其他“启动”功能,通常是粗略的输出估计,以避免DNNs诱发了差异。启动依赖于这些与任务相关的关键输入特征的近似域知识,在实际设置中通常很容易获得。例如,可以将最近的帧优先于过去的视频输入中,以进行视觉模仿学习,或者在背景像素上进行图像分类的明显前景。关于NICO图像分类,Mujoco连续控制和Carla自动驾驶,我们的启动策略的效果要比几种流行的最先进的方法来选择和数据增强。我们将这些经验发现与DNN优化的最新理论结果联系起来,并从理论上说,启动启动通过创建更好,更简单的快捷方式来分散优化器的注意力。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译